Pengantar Pembelajaran Penguatan Mendalam (DRL)
Pembelajaran Penguatan Mendalam (DRL) menggabungkan kemampuan representasi berdimensi tinggi dari Jaringan Saraf Dalam dengan kerangka kontrol optimal dari Pembelajaran Penguatan. Berbeda dengan pembelajaran terawasi atau tak terawasi, DRL agen belajar melalui interaksi coba-coba dan kesalahan di lingkungan yang dinamis lingkungan, membuat keputusan berturut-turut keputusan berturut-turut tanpa label langsung atau eksplisit. Integrasi ini memungkinkan agen menangani masukan kompleks dan mentah (seperti data piksel) secara langsung.
1. Paradigma Pembelajaran DRL
Agen RL beroperasi dalam siklus terus-menerus: mengamati lingkungan Keadaan ($S_t$), melakukan tindakan Tindakan ($A_t$), dan menerima sinyal skalar yang mungkin jarang atau tertunda Imbalan ($R_{t+1}$). Tantangan utama adalah masalah penugasan kredit: menentukan tindakan masa lalu mana yang bertanggung jawab atas sinyal imbalan di masa depan.
2. Tujuan Optimasi
Tujuan akhir adalah menemukan strategi optimal, atau kebijakan ($\pi^*$), yaitu pemetaan dari keadaan ke tindakan, yang memaksimalkan Return Kumulatif Diskon yang Diharapkan ($G_t$). Faktor diskonto ($\gamma \in [0, 1]$) sangat penting secara matematis, mendefinisikan seberapa besar kita menghargai imbalan segera dibandingkan imbalan yang diharapkan jauh ke masa depan.
$$G_t = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}$$1. $\gamma = 0$
2. $\gamma \approx 1$
Describe the agent's behavioral preference in each case regarding the timeline of rewards.
If $\gamma = 0$, the agent is myopic (shortsighted), focusing only on the immediate reward $R_{t+1}$. If $\gamma \approx 1$, the agent is far-sighted, equally weighting immediate and distant future rewards, leading to planning over a very long horizon.